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会 话 分 析 视 角 下 的 究 发 公共 事件 主题 演化 研究 


以 “新 冠 肺炎 疫情 "为 合 
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[ 目的/ 意义] 会 话 分 析 理 论 的 引入 为 主题 演化 研究 提供 了 新 的 研究 视角 , 细 化 了 主题 演化 分 析 粒 度 。 同 时 ,更 为 
完善 的 主题 演化 分 析 思 路 被 应 用 于 突 发 公共 事件 之 中 ,有 利于 提升 监管 部 门 的 与 情 芯 导 效 率 。|[ 方法 /过 程 ] 针 对 
现 有 研究 中 的 主题 识别 方法 与 主题 演化 判断 标准 ,结合 会 话 分 析 与 主题 分 析 , 将 会 话 内 容 与 会 话 组 织 结构 引入 主 
题 演 化 分 析 过 程 中 ,并 以 “新 冠 肺炎 疫情 ”中 用 户 生 成 内 容 (UGC) 作 为 数据 来 源 进行 实证 分 析 。 通 过 基于 时 序 性 
与 讨论 热度 的 主题 演化 分 析 , 从 主题 强度 层面 识别 不 同 层 级 内 容 的 演化 规律 ,并 在 主题 内 容 分 析 层 面 引 入 知识 发 
现 的 关联 规则 计算 思想 以 挖掘 语 料 内 容 间 的 参照 关系 ,结合 社会 网 络 分 析 方法 确定 关键 演化 路 径 。[ 结果 /结论 ] 
研究 结果 表明 ,网络 结构 中 不 同 层 级 的 主题 内 容 存 在 一 定 差异 并 对 主题 演化 趋势 有 着 重要 影响 ,对 有 着 重要 作用 


摘 要 : 
™ 
~ 
| 
GO 的 层级 的 内 容 进行 有 效 监管 会 对 引导 与 情 走向 产生 积极 作用 。 
pa ai 突 发 公共 事件 ”主题 识别 ”主题 演化 ”关联 规则 
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E 来 ,诸如 “新 冠 疫情 "“7 . 20 郑州 特大 暴雨 ” 
等 突 发 公共 事件 对 社会 稳定 与 经 济 发 展 均 产生 了 重大 
影响 。 随 着 网 络 技术 的 发 展 和 移动 智能 设备 的 普及 ， 
微 重 、 微 信 . 短 视频 、 在 线 社区 等 非 正式 信息 交流 方式 
受到 了 广泛 青睐 ,公众 在 线 参与 事件 舆情 讨论 的 意愿 
日 例 退 烈 。 与 传统 媒体 舆论 传播 相 比 ,大 数据 时 代 下 
的 网 络 与 情 具 有 信息 相对 开放 、 信 息 传播 迅速 .信息 丰 
富 多 样 和 信息 具有 倾向 性 的 特点 " 。 与 规范 化 的 新 闻 
语 料 或 政策 文本 不 同 ,由 用 户 自己 生产 、 更 新 并 借助 于 
网 络 媒介 传播 的 大 量 用 户 生成 内 容 ( User Generated 
Content,UGC ) ,不 仅 能 全 面 刻画 用 户 更 深层 次 的 内 容 
偏好 ,上 且 其 中 所 蕴含 的 主题 及 主题 演变 趋势 与 演化 规 
律 , 有 助 于 准确 了 解 与 掌握 突 发 公共 事件 的 脉络 现状 、 
发 展 规律 与 动态 趋势 ,为 相关 部 门 实施 智能 监控 辅助 
决策 .与 情 引导 、 个 性 化 推荐 等 提供 了 服务 参考 。 当 
前 ,主题 演化 方面 的 研究 已 得 到 多 方面 的 深化 与 拓展 ， 
但 仍 受 到 分 析 层 次 宏观 与 测度 指标 维度 单一 等 方面 的 
局 限 。 而 会 话 分 析 作 为 一 种 有 效 揭示 非 正式 信息 交流 


内 容 、 关 系 ,行为 等 规律 的 有 效 手段 ,不仅 为 从 信息 
交流 数据 中 探究 反映 人 类 言语 交互 的 社会 学 规律 提供 
了 理论 依据 ,更 为 以 UGC 数据 为 来 源 、 以 主题 为 表征 、 
以 识别 主题 内 容 潜 在 关联 关系 为 目的 的 主题 持续 演化 
规律 研究 提供 了 特定 场景 。 

基于 此 ,本 文 以 突 发 公共 事件 为 研究 对 象 ,结合 会 
话 分 析 与 主题 分 析 , 将 会 话 内 容 与 会 话 组 织 结构 引入 
主题 演化 分 析 过 程 中 ,将 “新 冠 肺炎 疫情 事件 ”UGC 数 
据 视 为 基于 社交 媒体 的 异步 会 话 过 程 开展 实证 分 析 。 
一 方面 ,通过 基于 时 序 性 和 讨论 热度 的 主题 演化 分 析 ， 
借助 于 会 话 内 容 呈 现 的 层级 结构 探寻 不 同 层级 主题 的 
演化 规律 ; 男 一 方面 ,利用 基于 关联 规则 的 支持 度 和 可 
信和 度 , 通 过 判定 主题 内 容 间 的 语义 关联 和 演化 趋势 ,从 
而 确定 主题 关键 演化 路 径 ,为 后 续 与 情 引 导 、 监 控 、 管 
理 与 预测 提供 参考 性 建议 。 


2 相关 研究 


2.1 突 发 公共 事件 主题 识别 与 演化 的 相关 研究 
与 一 般 公 共事 件 所 不 同 , 突 发 公共 事件 具有 突 发 
性 和 高 破坏 性 的 典型 特征 ,对 其 进行 主题 识别 与 主题 
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演化 分 析 不 仅 是 突 发 公共 事件 舆情 领域 中 的 重要 研究 
内 容 , 更 对 未 来 的 与 情 监管 工作 具有 一 定 的 借鉴 意义 。 
针对 突 发 公共 事件 主题 识别 方法 的 研究 ,主要 涉及 共 
词 分 析 和 概率 模型 两 个 方向 。 第 一 类 ,以 共 词 分 析 为 
基础 的 主题 识别 方法 ,是 利用 文本 集合 中 词 与 词 之 间 
的 共 现 关系 来 反映 关系 强度 ,从 而 实现 主题 聚 类 与 识 
别 的 。 其 具体 应 用 场景 包括 挖掘 潜在 主题 ? .解决 自 
标 引 关 键 词 缺失 "等 。 第 二 类 ,以 概率 模型 为 基础 的 
主题 识别 方法 ,其 实现 原理 的 核心 是 机 器 学 习 算法 , 例 
如 早期 的 LDA (Latent Dirichlet Allocation ) 模型 。 其 后 
的 研究 一 方面 围绕 基本 LDA 主题 模型 进行 ,包括 新 闻 
文本 .UGC 数据 中 在 内 不 同类 型 数据 源 的 针对 性 拓 
是 , 另 一 方面 从 主题 识别 的 各 个 环节 入 手 , 不 断 提出 基 
于 EDA 的 优化 模型 ,如 SECNN 模型 ” 。 
| 全 突 发 公共 事件 主题 演化 的 相关 研究 主要 侧重 于 对 
提 职 出 的 主题 进行 语义 层面 的 相似 度 计算 来 推进 演化 
分 浙 。 在 主题 内 容 方面 ,有 学 者 借助 社会 网 络 分 析 工 
上 其 丙 建 事件 语义 图 谱 , 进 一 步 提出 基于 语义 的 突 发 公 
共 王 生 事件 网 络 与 情 主题 发 现 框架 并 进行 实证 分 
四。 还 有 学 者 将 突 发 公共 事件 中 利益 相关 者 的 话题 
证 点 进行 分 类 分 阶段 分 析 ,揭示 不 同 利益 相关 者 在 
不 同 阶段 话题 演化 模式 的 异同 点 ;主题 强度 方面 ,有 
旦 济 者 针对 公共 政策 数据 进行 采集 分 析 , 通过 结合 
LD 寞 主题 模型 与 离散 时 间 法 ,借助 讨论 热度 等 多 项 指 
棕 世 较 不 同类 型 主题 政策 的 演化 情况 。 部 分 学 者 
以 儿 情 传播 四 阶段 为 基础 进行 划分 ,分 别针 对 各 个 阶 
段 进行 主题 的 提取 与 演化 分 析 , 并 提出 了 基于 微 博文 
本 榴 与 情 管控 策略 "。 除 了 从 单一 层面 出 发 的 研究 
以 外 ,还 有 学 者 针对 从 知 乎 平台 中 获取 到 的 数据 来 提 
取 主 题 , 总 结 不 同时 段 内 用 户 关注 的 重点 主题 内 容 , 并 
归纳 不 同 主题 内 容 的 主题 强度 变化 趋势 *!。 部 分 学 
者 针对 新 冠 肺炎 疫情 期 间 的 谣言 这 一 特殊 对 象 进行 主 
题 内 容 分 布 特征 以 及 数量 特征 的 剖析 ,并 结合 马 斯 洛 
需求 理论 分 析 其 深层 次 的 形成 原因 。 还 有 学 者 选 
择 从 话题 讨论 数量 ,热度 及 内 容 等 多 维特 征 出 发 全 方 
位 追踪 与 情话 题 的 演化 情况 ,并 基于 知识 图 谱 方法 构 
建 话题 图 谱 "" 。 随 着 社交 媒体 技术 的 发 展 ,与 情 内 容 
成 为 了 人 民 真 实意 愿 的 直接 表现 。 与 情 监测 过 程 中 对 
情感 倾向 的 识别 也 成 为 了 政府 相关 部 门 以 及 研究 者 的 
关注 焦点 。 主 题 情感 相关 的 研究 大 多 是 基于 主题 内 容 
或 主题 强度 的 分 析 , 结 合 包括 VADER 情感 模型 "5 、 情 
感 单元 词 表 " 在 内 的 相关 情感 词典 来 进行 的 。 
综合 现 有 的 相关 研究 文献 可 见 ,在 主题 识别 方面 ， 


现 有 方法 较 少 考虑 语 料 内 容 在 语义 层面 的 关联 关系 ; 
在 主题 演化 分 析 方 面 ,或 大 多 聚焦 于 主题 的 时 序 变化 
与 热度 演化 趋势 ,或 直接 通过 主题 间 的 文本 相似 度 来 
度量 主题 关联 程度 , 仍 缺少 对 于 主题 间 关 联 关系 的 有 
向 性 判定 标准 的 关注 。 

2.2 会 话 分 析 及 应 用 研究 

会 话 分 析 ( Conversation Analysis) , 即 对 日 常生 活 
中 自然 发 生 的 真实 会 话 进行 记录 和 分 析 , 该 理论 认为 
人 们 日 常会 话 的 构成 是 存在 一 定 秩序 和 规律 的 。 会 话 
分 析 视 角 下 的 研究 ,一 方面 聚焦 于 人 们 会 话 过 程 中 的 
语言 表达 ,并 通过 分 析 具 体 的 语 用 和 语义 特征 ,总 结 话 
语 角 色 的 会 话 风格 和 会 话 策略 ,并 应 用 于 诸如 课堂 互 
动 " \ 医 患 交流 “心理 咨询 ”综艺 节目 赏析 ”和 
市 场 交易 ”等 多 个 场景 中 。 

另 一 方面 的 研究 则 更 为 关注 会 话语 料 集合 来 源 所 
带 来 的 话语 角色 间 的 组 织 结构 和 交互 模式 异同 。 随 着 
网 络 技术 与 新 媒体 的 发 展 ,更 多 的 会 话语 料 从 线 下 转 
向 线 上 ,以 在 线 社区 为 代表 的 非 正式 交流 成 为 其 主要 
语 料 来 源 。 例 如 ,李纲 等 综合 社会 网 络 分 析 法 和 内 容 
分 析 法 对 所 收集 的 微 信 群 内 的 语 料 进行 剖析 ,并 构建 
出 群 聊 内 参与 会 话 成 员 的 交流 网 络 ” ” 。 部 分 学 者 
选择 线 上 学 术 社 区 作为 研究 对 象 ,结合 LDA 主题 模型 
对 信息 交互 类 型 及 内 容 拓 扑 结构 等 进行 深入 分 析 , 并 
提出 针对 性 的 促进 虚拟 学 术 社区 用 户 交互 的 策略 ” 。 
李 月 琳 等 则 将 研究 目标 转变 为 因 受 到 疫情 影响 而 受到 
关注 的 医疗 健康 网 站 ,通过 医疗 健康 网 站 中 医生 和 患 
者 的 会 话 轮 次 等 交互 数据 分 析 影 响 交 互 效率 的 因素 ， 
为 后 续 相 关 平 台 或 系统 的 开发 提供 理论 指导 。 

综 上 , 现 有 的 突 发 公共 事件 主题 演化 分 析 方 面 的 
研究 ,或 基于 时 序 关系 .或 基于 主题 热度 或 基于 主题 相 
似 度 度 量 主题 之 间 的 相关 性 ,相关 研究 存在 以 下 几 个 
方面 的 局 限 : 中 分 析 层 次 较为 宏观 ,一 般 将 UGC 视 为 
一 个 大 规模 数据 集 ,直接 从 中 提取 主题 ,忽略 了 由 社交 
媒体 或 在 线 社区 本 身 存 在 的 网 络 组 织 结构 所 带 来 的 影 
响 ,如 未 考虑 “ 主 帖 - 回复 帖 - 楼 中 楼 帖 " 中 存在 的 主 
题 内 容 差异 ;@) 主 题 内 容 关联 方法 较为 单一 ,普遍 采用 
语义 相似 度 或 语义 距离 的 度量 方式 , 既 缺 乏 对 于 语 料 
内 容 关联 关系 语义 层面 的 理解 ,也 未 考量 主题 内 容 关 
联 的 有 向 性 ;@ 测 度 指标 选择 上 理论 依据 不 足 , 或 基于 
时 序 .或 基于 主题 热度 .或 基于 主题 文本 相似 度 计 算 ， 
尚未 针对 于 主题 持续 性 演化 规律 制定 多 维度 测度 标 
准 。 而 会 话 分析 的 引入 , 既 通 过 会 话 内容 呈 现 了 UGC 
数据 中 的 层级 结构 关系 ,有 利于 探究 不 同 层级 主题 的 
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以 “新 冠 肺炎 疫 迟 :风车 人 加 加 入 朱 时 


演化 规律 ,也 实现 了 对 于 语 料 内 容 分 析 处 理 的 细 粒 度 
化 ,将 主体 关联 深度 从 内 容 层 面 延 伸 至 语义 层面 ,丰富 
了 主题 演化 持续 性 判定 的 标准 。 因 此 ,本 文 在 会 话 分 
析 视 角 下 充分 考虑 语 料 内 容 的 组 织 结构 ,在 主题 强度 
层面 挖 气 不 同 层级 主题 间 的 演化 规律 ;同时 在 主题 内 
容 层面 引入 知识 发 现 中 关联 关系 的 计算 思路 ,在 计算 
关联 强度 的 同时 实现 对 于 演化 关系 指向 性 的 判定 与 划 
分 ,同时 结合 社会 网 络 分 析 方法 识别 关键 演化 路 径 ,以 
揭示 事件 的 主题 演化 规律 
3 研究 方案 设计 
3.1 整体 研究 思 

社区 类 交流 应 用 程序 的 出 现 改变 了 数据 的 单 向 流 
动 现状 并 进一步 丰富 了 活动 产生 的 数据 内 容 。 本 文 最 
终 沈 择 在 线 交 流 社区 百度 贴吧 中 的 “新 型 冠状 病毒 ” 
号 作 为 原始 数据 源 ,其 原因 具体 包括 以 下 3 个 方面 : 
QO 大 信息 发 布 者 的 角度 而 言 , 作 为 拥有 超过 10 亿 注册 
用 现 的 百度 贴吧 ,从 中 获取 的 UGC 可 以 充分 反映 广大 
群 父 的 内 心 真实 需求 ;@ 从 信息 产生 的 渠道 而 言 ,UGC 
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数据 相 比 较 于 仅 来 源 于 新 闻 或 官方 机 构 网 站 发 布 的 权 
威 类 数据 而 言 ,数据 来 源 更 为 广泛 ;@) 从 信息 呈现 的 形 
式 而 言 ,本 文 认 为 UCC 数据 所 具有 的 “ 主 帖 -回复 帖 
-楼 中 楼 帖 ” 层 级 结构 是 主题 演化 的 必要 因素 ,也 是 当 
前 在 线 交 流 社区 用 户 间 交 互 所 呈现 出 的 主要 模式 。 
本 研究 首先 根据 数据 源 特点 建立 候 虫 框架 进行 数 
据 疏 取 ,并 进行 基础 的 预 处 理 操 作 ,包括 空 值 处 理 、 去 
除 停 用 词 ,分词 处 理 等 。 其 次 利用 主题 模型 对 每 个 帖 
子 进 行 主 题 提 取 并 进行 聚 类 形成 主题 禾 , 根据 特征 词 
与 主题 的 对 应 关系 将 帖子 分 配 至 对 应 主题 。 在 主题 演 
化 分 析 阶 段 ,一 方面 通过 统计 主题 复出 现 频 次 总 结 主 
题 簇 在 时 间 维 度 上 的 热度 变化 ,并 结合 具体 共 现 关系 
研究 不 同 主题 簇 之 间 的 交互 关系 ;为 一 方面 容 焦 特征 
词 对 的 关联 关系 ,并 映射 至 主题 禾 层 面 来 挖掘 主题 复 
语义 层面 的 关键 演化 路 径 。 两 者 均 是 主题 演化 的 重要 
反映 ,前 者 聚焦 于 主题 被 关注 程度 的 趋势 变化 特征 ,后 
者 则 关注 在 突 发 公共 事件 推进 过 程 中 主题 在 内 容 层面 
的 深入 或 延伸 ,具体 研究 思路 如 图 1 所 示 : 


确定 研究 对 象 与 数据 来 源 


。 研究 对 象 : 突 发 公共 事件 


s ”数据 来 源 : 百度 贴吧 “新 型 冠状 病毒 ” 吧 


建立 息 虫 框架 
停 用 词 处 理 
中 文 分 词 


确定 主题 数 


针对 主题 进行 主题 聚 类 


基于 时 序 与 主题 热度 的 突 发 公共 事件 主题 演化 分 析 


。 ”统计 主题 在 时 间 上 的 数量 分 布 


。 ”结合 主题 共 现 关系 研究 主题 之 间 的 交互 关系 


主题 提取 与 用 户 帖子 主题 偏好 分 配 


利用 LDA 模 型 得 到 主题 及 特征 词 分 布 


利用 一 致 性 分 数 实现 用 户 帖 子 主题 偏好 分 配 


基于 关联 规则 的 突 发 公共 事件 主题 演化 分 析 


s ”利用 特征 词 确定 主题 间 存 在 的 关联 关系 
构建 主题 词 的 可 信 度 矩阵 
。 ”提取 不 同 层级 主题 间 的 关系 并 进行 可 视 化 分 析 


图 1 研究 思路 


3.2 ”研究 方法 
3.2.1 主题 模型 

主题 模型 是 一 种 对 文本 隐 含 主题 进行 建 模 的 方 
法 ,通过 将 高 维度 的 词 的 集合 映射 到 低 维度 的 主题 空 
间 上 来 实现 对 目标 数据 的 降 维 ,建立 简洁 的 表示 。 


在 已 有 的 研究 当中 ,主题 模型 可 以 根据 适用 对 象 的 不 
同 分 为 两 种 。 第 一 种 是 面向 长 文本 的 主题 模型 。 典 型 
代表 有 LDA 主题 模型 以 及 后 续 对 此 进行 优化 的 动态 
主题 模型 ”和 TOT 模型 1。 但 上 述 模 型 大 多 适用 于 
长 文本 的 处 理 ,对 于 内 容 较 少 的 短文 本 来 说 会 出 现 数 
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据 稀 政 的 问题 。 因 此 ,第 二 类 主题 模型 主要 面向 的 是 
不 超过 10 个 词 的 短文 本 。 例 如 BTM 模型 “和 词 网 络 
主题 模型 WNTM'”。 
考虑 到 研究 过 程 中 使 用 的 帖子 数量 以 及 单个 帖子 
的 篇 幅 ,本 文 最 终 选择 LDA 主题 模型 用 于 主题 提取 。 
首先 ,LDA 模型 的 主要 特点 之 一 是 其 能 够 从 海量 的 文 
本 信息 中 提炼 出 有 效 信息 ,并 且 能 够 为 每 一 条 信息 分 配 
对 应 的 主题 。 其 次 ,LDA 主题 模型 运行 过 程 中 所 涉及 的 
先 验 概率 分 布 可 以 有 效 规避 机 器 学 习 过 程 中 产生 的 过 
拟 合 问题 。 最 后 ,LDA 模型 运行 结果 中 还 包含 特征 词 隶 
属于 主题 的 概率 ,可 以 满足 研究 中 后 续 步 又 的 需要 。 另 
外 ,尽管 现 有 研究 中 提出 优化 后 的 LDA 模型 在 提取 准 度 
和 算法 性 能 上 兼 具 优势 ,但 在 应 用 场景 或 语 料 对 象 上 仍 
存在 局 限 性 ,并 不 能 够 完全 适 配 本 文 的 研究 场景 
3 主题 聚 类 方法 
CO 主 题 聚 类 , 即 对 某 一 特定 特征 差异 较 小 的 主题 进 
各 并 ,并 形成 相对 应 的 主题 欠 。 为 了 使 得 主题 提取 
的 双 果 更 为 精确 ,本 文 需要 根据 主题 模型 提取 结果 进 
行 洁 类 分 析 , 旨 在 形成 内 部 特征 差异 小 、 外 部 特征 差异 
~ 的 主题 和 。 
人 当前 研究 中 所 使 用 的 聚 类 方法 大 多 可 以 分 为 基于 
B33 的 方法 .基于 层次 的 方法 .基于 网 格 的 方法 、 基 于 
局 谋 的 方法 .基于 模型 的 方法 5 种 类 型 。 其 中 ,基于 划 
分 侈 方法 易于 理解 和 实现 且 结 果 准 确 性 高 ,但 这 类 方 
滨 隔 准确 性 会 受 初始 聚 类 数目 的 影响 ,例如 K-Means 
聚 类 方法 。 基 于 层次 的 方法 则 不 需要 提前 输入 参数 ， 


但 车 计算 复杂 度 较 高 且 不 能 纠正 错误 的 划分 和 合并 ， 
击 代 表 有 BIRCH 算法 。 基 于 网 格 的 方法 在 运行 过 
程 中 耗费 的 时 间 与 数据 量 无 关 ,但 与 每 个 维度 上 所 划 
分 的 单元 数 相关 ,这 也 在 一 定 程度 上 降低 了 聚 类 的 质 
量 和 准确 性 。 基 于 密度 的 方法 可 以 发 现任 意 形状 的 聚 
类 ,但 运行 中 相关 参数 的 设置 对 用 户 经 验 有 一 定 要 求 。 
基于 模型 的 方法 可 以 自动 修正 划分 中 类 的 数目 ,但 执 
行 效率 往往 不 高 。 

鉴于 LDA 模型 提取 结果 数据 量 大 且 维 度 高 的 特 
点 ,本 文 最 终 选择 基于 划分 的 聚 类 方法 。 在 计算 主题 
间 的 相似 性 前 ,会 利用 特征 向 量 对 每 一 个 主题 进行 表 
征 , 将 主题 之 间距 离 的 计算 转换 成 对 于 特征 向 量 之 间 
距离 的 计算 。 因 此 ,对 于 同 为 一 种 类 型 的 文本 内 容 ,本 
文 仅 使 用 余弦 相似 度 来 测量 主题 之 间 的 距离 并 进行 后 
续 的 聚 类 分 析 。 
3.2.3 ”主题 演化 持续 性 及 其 判定 

在 过 去 与 主题 演化 相关 的 研究 当中 ,学 者 通常 以 


时 间 片 段 内 与 该 主题 相关 的 讨论 存在 与 否 作为 其 演化 
持续 性 的 判定 标准 , 即 某 一 时 间 片 段 内 与 该 主题 相关 
的 讨论 数量 不 为 零 时 可 以 认为 该 主题 的 演化 仍然 在 持 
续 。 但 在 主题 内 容 关 联 度 的 计算 上 普遍 采用 语义 相似 
度 或 语义 距离 的 方式 ,忽略 了 主题 内 容 的 时 序 特征 及 
演化 过 程 的 有 向 性 。 除 此 以 外 ,主题 演化 的 相关 研究 
在 进行 过 程 中 往往 选择 将 语 料 整体 按照 预定 的 设置 分 
成 耕 干 个 时 间 片 段 , 却 忽视 了 不 同时 间 片 段 内 语 料 本 
身 的 资源 结构 特征 。 因 此 ,本 文 认为 主题 演化 持续 性 
的 判定 需要 涉及 主题 强度 、 主 题 内 容 关 联 度 和 网 络 结 
构 3 个 要 素 。 其 中 ,主题 强度 主要 聚焦 于 从 时 序 性 上 
把 握 主题 的 变化 趋势 , 主题 内 容 关 联 度 则 更 侧重 于 事 
件 演化 过 程 中 主题 内 容 在 语义 层面 的 深入 或 延伸, 而 
网 络 结构 贯穿 于 整个 流程 。 已 有 的 研究 往往 会 选择 将 
某 一 主题 或 事件 相关 的 所 有 UGC 数据 视 为 单一 整体 ， 
而 忽略 该 整体 内 部 的 资源 结构 特征 。 但 在 实际 情况 
中 ,内 部 的 资源 结构 特征 丰富 了 主题 演化 的 方式 ,也 为 
主题 演化 的 探析 提供 了 新 的 维度 。 

(1) 主 题 强度 。 一 方面 ,主题 强度 演化 是 指 主题 
被 关注 的 热点 程度 随时 间 的 变化 趋势 ,并 以 此 刻画 突 
发 公共 事件 的 生命 周期 ” 。 另 一 方面 ,兼顾 主题 强度 
和 主题 内 容 两 个 层面 的 演化 分 析 有 助 于 提高 对 于 主题 
演化 持续 性 判断 的 准确 性 以 及 挖掘 用 户 在 事件 演化 期 
间 的 关注 焦点 。 已 有 的 与 主题 强度 相关 的 研究 文献 也 
为 本 文 提供 了 坚实 的 理论 基础 。 本 文 将 继续 沿用 已 有 
的 研究 方法 ,在 完成 语 料 内 容 的 主题 分 配 后 ,对 不 同 主 
题 的 语 料 数量 进行 统计 ,并 以 此 作为 主题 强度 的 衡量 
依据 并 推进 后 续 主 题 演 化 的 分 析 。 

(2) 主 题 内 容 关 联 度 。 首 先 ,内 容 关 联 度 计算 结 
果 的 准确 性 是 影响 该 主题 下 讨论 内 容 划 分 的 关键 因 
素 。 例 如 在 数据 分 析 过 程 中 忽略 了 不 同 主题 潜在 的 内 
容 相 关 性 ,可 能 会 出 现 内 容 相 关 的 用 户 发 言 未 被 纳入 
分 析 范 围 或 关键 词 相同 但 所 指 代 事 件 不 同 而 被 错误 
纳入 分 析 范 围 从 而 影响 主题 演化 分 析 结 论 的 情况 。 其 
次 ,主题 内 容 关 联 关系 的 指向 也 进一步 完善 了 主题 演 
化 分 析 的 内 容 。 本 文 拟 利用 关联 规则 计算 中 所 使 用 的 
支持 度 和 可 信 度 作为 关系 指向 的 判定 标准 , 即 实现 主 
题 演化 分 析 的 多 维 化 。 

(3) 网 络 结构 。 作 为 反映 语 料 内 容 资源 结构 的 网 
络 结构 ,是 会 话 视 角 下 主题 演化 分 析 需 要 纳入 考虑 的 
方面 。 会 话 视 角 下 的 研究 强调 对 会 话 内 容 以 及 会 话 组 
织 结构 的 研究 ,这 也 为 主题 演化 分 析 提 供 了 成 熟 的 理 
论 研究 基础 。 随 着 关于 主题 演化 以 及 有 关 UGC 数据 
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千 革 日 


C hir C X I\ 会 人 作 次 门 十 | 
以 “新 先 须 类 疫 算 员 怀 六 前 售 则 基 


应 用 方面 的 研究 日 趋 成 熟 , 越 来 越 多 的 学 者 开始 注意 
到 网 络 结构 本 身 的 衍生 性 。 主 题 演 化 的 方式 不 再 局 限 
于 参与 讨论 人 数 的 变化 ,点 赞 、. 回 复 以 及 转发 等 用 户 表 
达意 愿 的 行为 方式 也 在 影响 着 主题 的 演化 。 现 如 今 大 
多 数 在 线 交 流 社区 的 交互 模式 逐渐 呈现 “ 主 帖 - 回复 
帖 -楼 中 楼 帖 " 三 级 结构 ,包括 知 乎 新浪 微 博 、 百 度 贴 
吧 等 多 个 在 线 社区 。 所 谓 主 帖 , 即 用 户 首次 在 社区 中 
发 表 与 主题 相关 的 言论 。 回 复 帖 , 则 是 用 户 自 吴 或 其 
他 用 户 对 于 主 帖 的 回复 ,此 类 回复 帖 大 多 是 基于 对 于 
主 帖 内 容 的 进一步 衍生 。 楼 中 楼 帖 的 形成 原理 与 回复 
帖 基本 一 致 , 即 用 户 自 身 或 其 他 用 户 对 于 回复 帖 内 容 
的 进一步 补充 。 
_ 突 发 公共 事件 持续 演化 过 程 分 析 


有 


4] 忆 基于 LDA 的 主题 提取 及 主题 铁 生 成 


(OLDA 模型 主要 通过 词语 共 现 概率 来 完成 词语 间 的 


聚 效 ,并 利用 狄 利克 雷 分 布 对 文档 生成 过 程 进行 刻画 。 
丰 贡 假定 百度 贴吧 的 帖子 主题 服从 超 参数 狄 利克 雷 先 
验 分 布 ,如 公式 (1) 所 示 : 


六 ( 荆 oa,) 和 


ir tT 公式 
, Dir(0. | a) [7 FCa,) I16 公式 (1) 


中 其 中 ,6 表示 帖子 在 主题 ! 中 的 分 布 ,对 每 一 个 
毕 山 的 帖子 主题 t 与 主题 词 项 之 间 服从 分 布 w ~ Dir 
(6 六 对 每 篇 帖子 与 主题 词 之 间 服从 分 布 9, ~ Dir 
(BR 对 每 篇 帖子 中 的 第 n 个 词 项 生成 主题 项 ~ 
1 大 nomial( 0 ) 和 ~ Multinomial ( Pp, )。 基 于 此 ,本 
文 的 LDA 似 然 模型 如 公式 (2) 所 示 : 
‘OPW | a,8) = Tp(0, | a) TT, 5, p210.) 
p(w,, | 9..)d0. 公式 (2) 

文本 潜在 主题 数量 设 定 的 准确 性 也 是 影响 主题 模 
型 提取 准确 性 的 关键 因素 ,但 LDA 方法 本 身 并 不 能 自 
动 生成 最 佳 的 主题 数量 。 近 年 来 的 研究 中 不 同 的 学 者 
针对 此 问题 提出 了 主题 数量 设 定 的 不 同方 法 或 参考 依 
据 ,例如 困惑 度 (Perplexity) 、 非 参数 模型 自动 训练 、 
Perplexity-var 方法 。 但 已 提出 的 方法 大 多 面临 运算 效 
率 低 模型 过 拟 合 等 问题 。 因 此 ,本 文 借助 一 致 性 曲线 
确定 最 优 主 题 数量 ,其 计算 过 程 大 致 可 以 划分 为 数据 
切 分 .概率 计算 .确认 测度 和 取 平 均值 4 个 步骤 。 
一 致 性 分 数 在 计算 过 程 中 通过 融入 布尔 滑动 窗口 实现 
单词 标记 邻近 性 的 捕获 , 旨 在 从 语义 层面 分 析 文 档 内 
的 特征 词 隶 属于 该 主题 的 概率 。 

为 了 进一步 降低 LDA 主题 模型 提取 结果 的 稀疏 
性 ,本 文选 择 基于 余弦 相似 度 的 聚 类 算法 作为 主题 徐 


生成 实现 的 方法 。 该 方法 是 一 种 基于 相似 度 思 想 的 聚 
类 算法 ,测量 相似 度 的 指标 是 余弦 值 。 作 为 基于 划分 
的 聚 类 方法 ,易于 使 用 者 理解 和 实现 的 同时 ,其 聚 类 结 
果 也 呈现 "高 内 聚 低 耦 合 "的 特点 。 用 余弦 值 来 度量 
向 量 空间 中 两 个 向 量 之 间 的 差异 大 小 ,更 加 关注 到 两 
个 向 量 在 方向 上 的 差异 , 而 不 是 距离 或 长 度 上 的 差 
异 ” 。 通 过 计算 主题 之 间 在 内 容 维度 上 的 余弦 相似 
度 来 达到 主题 精确 聚 类 的 效果 。 上 具体 计算 公式 见 公式 
(3) : 


a*pB D1 x; xX yi) 
lal * IB1 VE x) x VE) 
公式 (3) 


cos(0)= 


其 中 ,a 和 B 均 为 n 维 向 量 。 

首先 利用 提取 出 来 的 主题 特征 词 构 建 一 个 词 袋 模 
型 ,并 且 针对 词 袋 模型 中 的 每 一 个 词 ,参照 主题 的 特征 
词 ,将 主题 表征 为 多 个 向 量 。 然 后 依据 构建 得 到 的 主 
题 特征 向 量 对 主题 两 两 之 间 进 行 余弦 相似 度 计 算 ,得 
到 主题 之 间 的 相似 度 值 。 根 据 相 似 度 计算 结果 ,为 不 
同类 型 帖子 选取 最 合适 的 主题 复数 量 。 

以 主 帖 层 级 的 帖子 为 例 , 最 终 得 到 的 聚 类 结果 见 
2。 在 LDA 主题 模型 提取 完成 后 得 到 的 结果 中 仍然 
存在 区 分 度 不 高 的 情况 。 以 主题 感染 表现 为 例 ,其 与 
主题 体征 表现 尽管 在 模型 抽取 结果 中 为 两 个 独立 主 
题 ,但 与 包括 新 闻 报 道 在 内 的 其 他 主题 相 比 ,这 两 者 的 
主题 内 容 存在 一 定 程度 的 相似 性 。 诸 如 此 类 的 情况 将 
会 导致 主题 过 于 分 散 的 现象 ,从 而 会 进一步 影响 后 续 
主题 强度 计算 的 准确 性 。 
4.2 ”基于 一 致 性 分 数 的 主题 分 配 

在 得 到 若干 个 主题 禾 及 其 相对 应 的 主题 后 ,仍然 需 
要 界定 帖子 的 主题 归属 , 即 每 一 个 帖子 属于 哪 一 个 或 哪 
些 主题 。 本 文 在 主题 分 配 的 过 程 中 参照 的 标准 是 每 条 
帖子 中 每 个 主题 的 一 致 性 分 数 , 即 每 个 主题 与 该 帖子 内 
容 层面 的 匹配 程度 。 若 在 分 配 过 程 中 出 现 两 个 主题 隶 
属于 该 帖 的 概率 相同 的 情况 , 则 通过 人 工 判断 来 赋予 主 
题 。 主 题 分 配 完 成 后 ,结合 主题 复生 成 结果 ,为 每 一 个 
帖子 分 配对 应 的 主题 修 , 以 实现 更 精确 的 主题 分 配 。 

考虑 到 语 料 内 容 的 资源 结构 ,在 帖子 主题 分 配 的 
过 程 中 ,不 同 层级 结构 的 帖子 对 应 该 层级 结构 的 主题 。 
即 当 为 主 帖 分 配 主题 的 时 候 , 需 要 从 主 帖 中 提取 出 的 
候选 主题 中 进行 分 配 , 与 其 他 两 个 层级 的 帖子 主题 无 
关 。 界 定 完 成 后 ,建立 主题 - 主题 复 的 对 应 关系 ,并 统 
计 不 同 主题 篮 下 的 帖子 数量 作为 后 续 基 于 主题 强度 分 
析 的 数据 来 源 。 
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| 2 基于 主题 聚 类 的 主 帖 层级 主题 复生 成 结果 


4 全 基于 时 序 性 与 主题 强度 的 突 发 公共 事件 主题 


a 


基于 时 序 性 与 主题 强度 的 突 

:本 让 时序 维 度 上 分 别 进 直行 主题 
的 分 析 。 

,关于 主题 艇 热度 的 分 析 , 本 文通 过 对 每 个 主题 修 

下 未 同 主题 在 不 同时 间 切 片 内 出 现 的 频次 进行 求 和 来 
该 主题 候 在 不 同时 段 内 的 讨论 热度 。 通 过 针对 主 

题 钼 热度 演化 趋势 的 分 析 , 总 结 突 发 公共 事件 主题 演 

化 现 规 健 。 

C 前 文 所 提 到 的 主题 分 配 策略 的 主要 思想 是 为 每 一 

个 帖子 分 配 其 对 应 一 致 性 分 数 最 高 的 主题 。 


发 公共 事件 主题 演化 
簇 热 度 和 主题 簇 间 交 


这 一 思想 


可 能 具有 治疗 “疾病 A” 的 功效 。 并 据 此 可 进一步 获得 


由 者 干 特 征 词 所 构成 的 主题 与 主题 间 的 语义 关联 关 
系 , 从 而 达到 分 析 该 主题 演化 路 径 的 目的 。 因 此 ,根据 


研究 目的 ,本 文 将 每 一 个 帖子 视 作 一 个 事务 了 ,其 由 多 
个 特征 词 的 项 目 组 成 ,为 获取 特征 词 之 间 的 语义 关联 ， 
可 对 其 构建 共 现 矩阵 从 而 实现 其 关联 分 析 ,在 满足 一 
定 文 持 度 和 可 信 度 条 件 下 挖掘 出 频繁 出 现在 一 起 的 特 
征 词 。 

完成 主题 提取 后 ,假设 存在 7 个 帖子 ,每 个 帖子 中 
包含 Y 个 互相 独立 的 特征 词 , 且 这 六 个 特征 词 均 需要 
从 该 帖 所 分 配 的 主题 中 获取 , 即 若 该 帖 中 出 现 特征 词 


并 不 属于 该 帖 所 分 配 主题 的 特 角 


E 词 集合 时 , 则 不 纳入 


所 建立 的 前 提 条 件 是 每 一 个 帖子 仅 


属于 某 一 主题 或 主 


计算 范围 。 


题 复 。 但 在 实际 情况 中 存在 帖子 对 应 多 个 主题 的 情 
况 。 因 此 ,为 进一步 研究 主题 篮 之 间 的 交互 关系 ,本 文 
将 每 个 帖子 分 配 的 主题 数量 设 定 由 一 个 增加 至 三 个 ， 
以 期 望 通过 研究 主题 篮 之 间 的 共 现 关系 来 充分 体现 交 
互 关 系 , 即 若 主题 复 之 间 的 共 现 次 数 越 高 , 则 可 以 说 明 
两 者 存在 更 为 紧密 的 交互 性 。 
4.4 基于 关联 规则 的 突 发 公共 事件 主题 演化 

关联 分 析 作 为 实现 知识 发 现 的 常见 手段 ,一 般 用 
于 量化 描述 物品 A 的 出 现在 多 大 程度 上 依赖 于 物品 B 
的 出 现 ”。 将 关联 分 析 应 用 于 突 发 公共 事件 主题 演 
化 中 , 旨 在 有 效 揭示 特征 词 与 特征 词 之 间 的 依存 关系 ， 
如 某 一 关于 药物 治疗 的 文本 中 ,包含 “药品 B ”这 一 特 
征 词 的 同时 ,也 存在 “疾病 A” 特征 词 , 则 表明 “药品 B 


设 帖 子 数 为 7, 首 先 计算 每 个 特征 词 出 现 的 帖子 
数量 C(C < N) ,C4 表示 含有 特征 词 4 的 主题 数 ;再 计 
算 任意 两 个 特征 词 共 现 的 帖子 数 , 记 为 有 ;最 后 计算 文 
持 度 $ .可 信和 度 Co。 其 中 ,支持 度 表 示 特 征 词 4 和 特征 

B 共同 出 现在 所 有 帖子 中 的 概率 ,计算 方法 见 公 式 


(4) 。 可 信和 度 表示 特征 词 4 出 现 的 帖子 中 ,特征 词 B 
出 现 的 概率 ,计算 方法 见 公 式 (5 ) : 

S48) -7T 公式 (4) 

Co sg) =P(B | A) = 六 公式 (5) 


A 


由 于 支持 度 只 能 说 明 特 征 词 4、B 同时 出 现 的 概 
率 ,并 不 能 量化 特征 词 4.B 之 间 的 关联 关系 强度 , 故 本 
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作 E 基 二 | 
伟大 世 


> 


Ee 
凡 < 新 冠 肺 天 法 后 员 


文 将 支持 度 作 为 判别 条 件 , 识 别 大 于 等 于 最 小 支持 度 
的 有 向 词 对 14 一 B81 ,并 在 此 基础 上 ,只 对 已 识别 的 强 
关联 词 对 进行 可 信 度 计算 , 据 此 作为 主题 - 主题 关联 


表 1 特征 词 之 间 的 关联 关系 类 型 


关系 向 量 表示 


分 析 的 依据 。 本 文 进一步 对 特征 词 - 特征 词 之 间 的 关 
联 类 型 进行 界定 ,将 其 分 为 3 种 类 型 , 即 前 序 关系 、 后 
继 关 系 以 及 平行 关系 ,如 表 1 所 示 : 


yi 才 
FEK 


前 序 关系 。 。 只 存在 4-B, 可 信 度 为 Co(4_,g) 


后 继 关系 既 存在 4 一 B 关系 又 存在 B 一 4 的 关系 , 且 Co(4 ,Bp) 
> Co(B) 

平行 关系 既 存在 4 一 有 B 关系 又 存在 B 一 4 的 关系 , 且 Co(4 ,Bp) 
=(Corp 


由 于 特征 词 是 用 来 表征 主题 的 向 量 ,本 文通 过 计 
算 不 同 主题 下 的 各 特征 词 间 的 支持 度 总 和 并 取 平 均值 
的 方式 来 衡量 主题 间 的 关联 关系 强度 。 即 假设 存在 包 
含 特征 词 4.8、C 的 主题 1 和 包含 特征 词 .EF 的 主 
题 公 则 主题 1 和 主题 2 的 关联 关系 强度 Cou 和 
Co 人 ,计算 方法 见 公式 (6) 和 公式 (7) : 


上 -co = (Co mn + Co sg) + Co sp) + Co(g sp) 
E98 8) + CO(p mm 十 Couc sp) + Code 中 + Co mm #9 

| 八 式 6 
< 公式 (6) 


Co = (Cop) + Co + Co co + Cog a) 
Cedi + Cop el + Cocp sn + Co ,gp) +t Copse) +9 

© 公式 (7) 
人 关联 强度 矩阵 的 构建 有 助 于 对 主题 进行 进一步 的 
演 伦 分 析 。 完 成 主题 间 的 关联 强度 计算 后 ,本 文 将 主 
晴 曾 的 关联 强度 转化 为 一 模 和 矩阵 。 首 先 ,同一 主题 间 
不 作 在 演化 的 情况 时 将 同一 主题 之 间 的 可 信 度 设置 为 
0 次 ,对 于 主题 间 的 可 信 度 Cow wo 和 Cow ， 
会 锯 先 对 比 二 者 的 大 小 , 较 小 的 可 信和 度 用 0 蔡 代 。 例 
如 当 Cow 四 大 于 Cous ww 时 ,证 明 主题 2 的 出 现 受到 
了 主题 1 的 影响 ,那么 此 时 主题 1 对 于 主题 2 的 影响 可 
以 忽略 不 计 。 知 出 现 Co 等 于 Co mn 的 情况 ,证 
明 主题 1 和 主题 2 是 等 价 关 系 ,保留 双方 原 有 可 信 度 。 
本 文 所 构建 的 矩阵 包括 同 层级 帖 中 的 主题 - 主题 关联 
矩阵 构建 和 跨 层级 帖 中 的 主题 - 主题 关联 矩阵 构建 两 
种 类 型 , 旨 在 将 网 络 结构 进一步 纳入 演化 分 析 的 范畴 。 


S 实证 分 析 


5.1 数据 获取 与 预 处 理 

本 文选 择 百度 贴吧 的 “新 型 冠状 病毒 " 吧 作 为 采 
集 对 象 ,采集 数据 的 时 间 段 为 该 吧 成 立 后 一 年 内 , 即 
2020 年 1 月 21 日 至 2020 年 12 月 21 日 , 共 采集 52 025 
条 数据 ,其 中 包括 主 帖 7 298 条 、 回 复 帖 20 049 条 、 楼 
中 楼 帖 24 678 条 。 为 了 保证 实验 数据 集 的 完整 性 、 清 


征 词 4 的 出 现 影响 特征 词 的 出 现 ,定义 4 为 B 的 前 序 特征 词 ,8 为 4 的 后 
继 特征 词 
特征 词 4 对 特征 词 B 出 现 的 影响 大 于 特征 词 对 特征 词 4 出 现 的 影响 ,舍弃 B 
一 4, 定 义 4 为 的 前 序 特征 词 ,8 为 4 的 后 继 特征 词 

特征 词 4 与 特征 词 8 之 间 的 影响 相同 ,具有 双向 关系 ,可 视 作 等 同 关系 进行 
考量 


洁 性 和 结构 化 ,本 文通 过 繁 简体 转换 .删除 空 值 以 及 纯 
字符 串 数 据 以 实现 前 期 语 料 处 理 ,然后 调用 Python 中 
的 jieba 分 词 数据 包 , 结 合 哈 工大 停 用 词 表 对 发 帖 内 容 
进行 进一步 的 分 词 处 理 , 将 处 理 后 的 帖子 内 容 分 别 保 
存在 不 同 字 段 中 ,成 为 后 续 用 于 候选 主题 提取 的 有 效 
数据 。 
5.2 主题 及 主题 簇生 成 
数据 采集 和 清洗 完成 后 , 最终 得 到 有 效 数 据 
39 563 条 ,其 中 包括 主 帖 7 280 条 回复 帖 17 950 条 ,楼 
中 楼 帖 14 333 条 。 在 主题 模型 训练 过 程 中 ,通过 绘制 
致 性 曲线 最 终 确定 输出 主题 数 为 50, 并 输出 主题 以 
及 对 应 特征 词 及 其 在 该 主题 语义 内 容 表达 层面 的 贡献 
概率 。 以 主 帖 中 的 “疫情 传播 ”主题 为 例 ,其 具体 输出 


结果 如 表 2 所 示 : 
表 2 “疫情 传播 ”主题 提取 输出 结果 
主题 特征 词 及 概率 


疫情 传播 ”0.305*“ 疫 情 ”+ 0. 075*“ 结 束 ”+ 0. 068*“ 严 重 ” + 
0.053*“ 这 次 ”+ 0. 032*“ 可 能 ”+ 0.016*“ 发 展 ”+ 0. 
014*“ 非 由 ”+ 0.011*“ 原 因 ”+ 0.010*“ 告 诉 ”+ 0.007* 
“特殊 ”+ 0.007*“ 两 年 ”+ 0.006*“ 年 前 ”+ 0.005*“ 妈 
妈 ”+ 0.005*“ 外 包装 ”+ 0. 004* “病床 ”+ 0. 004*“ 万 
人 ”+ 0.004*“ 排 名 ”+ 0.004*“ 后 人 ”+ 0.004*“ 再 次 ” 
+ 0.004*“ 或 超 ” 


根据 构建 得 到 的 主题 特征 向 量 对 主题 两 两 之 间 进 
行 余弦 相似 度 计 算 ,依据 相似 度 计算 结果 ,为 每 一 个 帖 
子 选 取 最 合适 的 主题 数量 。 在 主题 及 主题 复 的 生成 过 
程 中 ,本 文通 过 已 有 的 特征 词 及 概率 分 布 结果 ,对 主题 
进行 人 工 归纳 并 命名 ,最 终生 成 基于 不 同 层级 的 主要 
主题 簇 以 及 对 应 主题 如 表 3 所 示 。 以 情绪 表达 这 一 主 
题 篮 为 例 , 尽 管 在 主 帖 .回复 帖 和 楼 中 楼 帖 3 个 层级 的 
语 料 内 容 中 均 涉及 该 主题 簇 ,但 在 主 帖 层级 中 ,与 该 主 
题 复 相 关 的 用 户 发 言 更 侧重 于 对 于 自身 需求 的 表达 和 
对 于 抗 疫 前 线 瑞 雄 的 缅怀 ;在 回复 帖 层级 中 ,该 主题 复 
下 的 发 言 内 容 则 更 聚焦 于 对 于 疫情 好 转 态势 的 美好 向 
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往 ; 而 在 楼 中 楼 帖 层级 中 ,围绕 该 主题 簇 的 用 户 发 言 更 
主题 篮 主 帖 主题 


| 倾向 于 对 国家 或 地 区 防疫 政策 的 赞美 。 
表 3 ”基于 不 同 层级 的 主要 主题 禾 及 对 应 主题 


可 复 帖 主题 


楼 中 


中 
b= 


P 楼 帖 主 题 


病例 来 源 (T1 )/ 感 染 表 现 (T2 )/ 体 征 表现 
〈T5)/ 病 例 轨 迹 (T12)/ 传 统 中 医 (T31) 


病毒 来 源 与 传播 ”传染 路 径 (T3 )/ 疫 情 传 播 (T7 )/ 病 毒 源头 
(T18)/ 病 毒 传播 (T22)/ 日 常 防疫 (T23)/ 
病毒 传播 (T41 ) 
病例 数据 病例 来 源 (TO )/ 死 亡 人 数 (T8 )/ 新 增 数据 ”患者 治疗 (P2 )/ 疫 情 数 据 (P10)/ 无 症状 感 
(T10)/ 病 毒 暴发 (T16)/ 确 诊 病例 (T27)/ 染 (P1l2)/ 病 例 诊断 (P18 )/ 确 诊 病例 
新 增 确诊 (T38 )/ 疫 情 数据 (T48 )/ 野 生动 物 (P19)/ 全 球 疫情 (P25 )/ 具 体 病 例 (P29 )/ 
(T49) 确诊 病例 (P36)/ 临 床 确诊 (P37)/ 病 例 第 查 
(P46 ) /医院 隔 离 (P48) 
情绪 表达 求助 信息 (T13 )/ 个 人 求助 (T26)7 缅 怀 英雄 ”祈福 行为 (P4 )/ 情 绪 表 达 (P14 ) 情绪 表达 ( C1 )/ 情 绪 表 达 ( C8 ) /赞美 国家 
(T28) (C20)/ 诽 谤 造谣 (C28 )/ 负 面 造谣 (C40) 
疫情 形势 美国 形势 (T29 )/ 青 岛 疫情 (T30)/ 学 校 疫情 ”美国 疫情 (P3 )/ 负 面 影响 (P11 )/ 黑 龙 江 疫 疫情 传播 (C4)/ 武 汉 形 势 (C14)/ 武 汉 现状 
(T32)/ 美 国 疫情 (T33 )/ 国 外 疫情 (T36)4 情 (P15 )/ 日 本 疫情 (P16)/ 疫 情 数 据 ” (C16)/ 美 国 疫情 (C24)/ 国 外 形势 (C25 )/ 
= 人 口 流动 (T37)/ 风 险 地 区 (T39)/ 全 球 疫情 (P10)/ 美 国政 策 (P26 )/ 美 国 病例 (P27)4 日 本 (C26)/ 疫 情 源 头 (C37 )/ 传 播 方 式 
~ (T43 )/ 香 港 疫情 (T44) 国外 形势 (P34)/ 美 国 形势 (P38 ) (C38)/ 病 例 信息 (C43) 
阵 控 环节 与 措施 。 疫情 封 城 (T17)/ 国 家 援助 (T19)/ 疫 苗 研发 防 控 措 施 (P1)/ 国 外 防 控 (P6)/ 防 控 工 作 ”管控 环节 (C0)/ 核 酸 检测 ( C3)/ 社 区 管控 


(T20)/ 个 人 防护 (T24)/ 管 控 措 施 (T25 )/ 
社区 管控 (T35 )/ 景 区 管控 (T47) 


(P21)/ 消 毒 工作 (P23)/ 个 人 防护 (P30) 


离 措施 ( C36)/ 
瓷器 传播 (P0)/ 仓 库 (P9)/ 市 场 商户 
(P40 )/ 野 生动 物 (P24) 


(C5 )/ 防 疫 要 求 (C10)/ 国 家 管控 (C33 )/ 隔 


有 佩戴 (C42) 


出 行 问题 (C2)/ 学 生 开学 (C17)/ 生 活 问题 


© (C27)/ 物 流 恢复 (C49) 
为 横 轴 ,分 别 绘制 三 个 层级 帖子 主题 复 的 热度 演化 趋 
势 图 以 及 对 应 的 交互 演化 图 ,如 图 3 和 图 4 所 示 : 


5 全 基 于 时 序 性 与 主题 强度 的 演化 分 析 
@ 〇 根据 所 收集 到 的 数据 结果 ,本 文 以 月 为 单位 进行 
时 阐 片 段 的 划分 ,以 主题 筷 的 讨论 热度 为 纵 轴 , 以 时 序 
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图 3 各 层级 主题 复 热 度 演化 情况 
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人 本文 选 择 河流 图 来 展示 不 同 主题 能 的 演化 及 交互 
情 阐 , 其 中 不 同 主题 禾 河 流 的 宽度 代表 对 应 时 间 点 的 
主题 算 热 度 , 即 主题 秘 河 流 所 占 纵 轴 比 例 越 大 ,其 讨论 
热 遮 越 高 。 两 条 河流 交叉 即 代 表 主 题 候 之 间 存在 共 现 
关 希 , 即 具 有 交互 性 。 

. 壬 从 主 帖 这 一 层级 来 看 ,在 主题 簇 热度 演化 方面 ， 
20 给 年 4 月 和 6 月 附近 10 个 主题 息 均 出 现 了 两 个 峰 
值 ”从 单个 时 间 片段 来 看 ,疫情 形势 和 管控 环节 与 措 
施 这 两 个 主题 簇 分 别 占据 了 4 月 和 6 月 两 个 时 间 片段 
内 的 最 大 讨论 热度 。2020 年 4 月 8 日 ,武汉 市 正式 解 
封 的 消息 成 为 了 4 月 这 一 峰值 产生 的 碳 机 ;而 导致 6 
月 这 一 峰值 产生 的 原因 则 是 中 国 新 冠 疫苗 启动 三 期 临 
床 试 验 这 一 信息 ,三 期 临床 试验 的 结果 直接 影响 到 疫 
苗 研 发 的 成 功 与 耕 。 在 交互 分 析 方面 , 主 帖 主 题 簇 间 
的 交互 演化 也 呈现 “ 先 增强 后 减弱 "的 特点 。 从 交叉 
次 数 来 看 ,演化 初期 主题 秘 间 交互 程度 低 ,差异 度 大 。 
随 着 事件 讨论 热度 的 上 升 和 下 降 , 不 同 主题 候 的 共 现 
频率 出 现 了 明显 的 提升 或 减弱 。 

从 回复 帖 这 一 层级 来 看 ,在 主题 篮 热度 演化 方面 ， 
回复 帖 主题 秘 的 演化 趋势 与 主 帖 层级 有 所 不 同 ,其 演 
化 趋势 呈现 * 先 增强 后 减弱 "的 特点 ,整体 上 并 没有 出 
现 一 次 峰值 点 。 而 在 主题 簇 间 交 互 性 的 演化 方面 , 回 


(o) 楼 中 楼 帖 主题 篮 间 


交互 演化 图 


4 各 层级 主题 复 间 交互 演化 情况 


复 帖 主题 簇 间 的 交互 性 相对 较 差 , 随 着 主题 在 演化 后 
期 的 消亡 导致 交互 性 逐渐 减弱 其 至 于 不 存在 。 从 楼 中 
楼 帖 这 一 级 来 看 ,楼 中 楼 帖 的 主题 簇 热 度 呈 现 整体 下 
降 的 趋势 。 从 交互 性 来 看 ,尽管 演化 前 期 交叉 频率 高 ， 
不 同 主题 篮 间 的 交互 性 强 , 但 后 期 受到 讨论 热度 下 降 
的 影响 , 主题 篮 间 的 交互 性 逐渐 减弱 。 

通过 对 比 3 个 层级 帖子 主题 复 热 度 的 演化 规律 ， 
本 文 认为 影响 主题 徐 讨 论 热度 和 交互 性 的 演化 因素 包 
括 标志 性 事件 的 出 现 、 资 源 结 构 关系 和 事件 特性 3 个 
方面 。 
首先 是 标志 性 事件 , 主 帖 主题 复 演 化 热度 出 现 两 
个 峰值 的 原因 均 是 标志 性 新 闻 的 出 现 打 破 了 原 有 的 事 
件 演化 趋势 ,再 次 吸引 用 户 重 新 投入 讨论 中 。 其 次 是 
资源 结构 关系 ,排除 标志 性 事件 的 影响 ,3 个 层级 帖子 
主题 徐 热 度 演化 图 谱 趋 势 呈现 明显 的 滞后 性 。 这 其 实 
是 受到 了 百度 贴吧 自身 的 “ 主 帖 -回复 帖 - 楼 中 楼 
帖 " 层 级 结构 的 影响 。 随 着 层级 结构 的 深入 , 越 来 越 多 
的 用 户 会 参与 到 讨论 之 中 ,这 就 导致 了 处 于 层级 结构 
最 深 处 的 楼 中 楼 帖 在 自身 的 演化 初期 就 达到 了 讨论 热 
度 峰 值 情况 的 出 现 。 最 后 是 事件 本 身 的 特性 ,与 一 般 
公共 事件 所 不 同 , 突 发 性 公共 事件 的 特性 之 一 就 是 突 
发 性 , 即 毫 无 征兆 的 突然 发 生 。 主 题 复 热度 演化 图 谱 
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中 的 又 增 或 桑 减 趋势 均 充分 反映 了 突 发 公共 事件 的 这 

一 特性 。 

5.4 ”基于 关联 规则 的 主题 及 主题 入 演化 分 析 

5.4.1 主 帖 - 回 复 帖 - 楼 中 楼 帖 主 题 演化 规律 分 析 
依据 4.4 中 提出 的 关于 关联 规则 的 计算 方法 ,本 

文 共计 得 到 1 448 个 特征 词 的 支持 度 。 单 个 特征 词 的 

支持 度 是 衡量 一 个 词 在 整个 主题 文档 集合 中 重要 性 的 

各 标 , 即 某 词 的 支持 度 越 高 ,该 词 在 文档 集合 中 越 重 

要 。 特 征 词 对 的 支持 度 用 于 衡量 两 个 词 共同 出 现在 所 


有 主题 文档 集合 的 概率 ,支持 度 越 高 , 则 说 明 两 个 词 关 
联 度 越 高 且 该 词 对 也 具有 不 可 被 忽视 的 重要 意义 。 除 
支持 度 以 外 ,可 信和 度 用 于 界定 特征 词 之 间 的 关联 关系 
类 型 ,并 用 于 衡量 主题 之 间 的 关联 关系 。 

在 实际 分 析 过 程 中 ,尽管 前 期 提取 了 一 定数 量 的 
具有 平行 关系 的 特征 词 对 ,但 在 主题 关联 关系 分 析 结 
果 中 却 主要 呈现 为 前 序 或 后 继 的 演化 关系 。 本 文 利用 
NetDraw 软件 绘制 不 同 层 级 主题 内 部 及 外 部 的 演化 关 
系 并 得 到 可 视 化 图 谱 , 如 图 5 所 示 : 
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图 5 3 个 层级 帖子 主题 间 演 化 关系 
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(6 其 中 ,TP、C 分 别 表 示 主 题 所 属 层级 , 即 主 帖 . 回 
FP 楼 帖 。 例 如 T5 用 于 表示 从 主 帖 中 提取 出 
I 编号 为 5 的 主题 。 箭 头 的 指向 则 用 于 表示 主题 之 间 


楼 帖 主题 30 的 出 现 是 参照 了 主 帖 主题 5。 图 中 圆圈 面 
积 的 大 小 即 代表 该 主题 的 度 中 心性 , 即 有 色 圆 圈 面 积 
越 大 ,代表 该 主题 在 演化 过 程 中 重要 程度 越 高 。 

从 整体 来 看 ,回复 帖 的 度 中 心性 普遍 较 高 , P46、 
P20 .P25 具有 一 定 的 代表 性 。 对 于 主 帖 而 言 ,T38 的 度 
中 心性 相对 较 高 , 且 大 多 指向 其 他 层级 的 节点 。 对 于 
楼 中 楼 帖 而 言 ,C3 的 度 中 心性 相对 较 高 ,上 且 处 于 大 多 
数 连 线 的 稍 头 终点 。 这 与 资源 结构 本 吴 的 特性 有 关 。 
在 “ 主 帖 -回复 帖 - 楼 中 楼 帖 "三 层 结构 中 , 主 帖 成 为 
了 新 的 主题 产生 点 ,回复 帖 承担 了 中 间 的 过 渡 和 发 散 
作用 ,而 楼 中 楼 帖 则 承担 了 总 结 和 深化 前 两 层级 主题 
内 容 的 作用 。 但 鉴于 LDA 所 提取 出 的 主题 密度 较为 
稀 玻 ,为 了 进一步 挖掘 关键 主题 演化 路 径 ,本 文 对 前 文 
构建 的 主题 篮 结果 进行 演化 分 析 。 


5.4.2 主 帖 -回复 帖 -楼 中 楼 帖 主题 复 演 化 规律 
分 析 

参照 4.4 中 根据 特征 词 对 的 关联 关系 强度 计算 主 
题 间 关 联 关系 强度 的 方式 ,将 各 主题 视 为 用 于 表示 对 
应 主题 复 的 特征 词 ,并 基于 此 将 主题 间 的 关联 关系 强 
度 进 一 步 映射 到 主题 篮 层面 来 研究 主题 篮 间 的 演化 关 
系 ,利用 Neo4j 工具 得 到 主题 簇 演化 关系 , 见 图 6。 

在 关系 图 谱 中 ,本 部 分 继续 沿用 前 文 设 定 的 字母 
T、P\C 用 于 表示 主题 艇 所 属 层级 , 即 主 帖 ,回复 帖 和 楼 
中 楼 帖 ,而 主题 禾 间 的 关联 关系 主要 通过 连 线 来 体现 。 
通过 分 析 ,本 文 最 终 确 定 新 型 冠状 病毒 肺炎 疫情 相关 
帖子 中 的 核心 主题 篮 为 主 帖 层级 的 “相关 人 员 ” 疫 情 
形势 “病例 数据 ” ,回复 帖 层级 的 “症状 “疫情 形式 ” 
“病例 数据 ” ,楼 中 楼 帖 层级 的 “管控 环节 与 措施 ”“ 感 
染 及 症状 ” 。 根 据 核心 主题 簇 以 及 对 应 主题 徐 下 的 主 
题 演 化 关系 ,最 终 确定 3 条 关键 演化 路 径 , 分 别 是 主 帖 
层级 的 “相关 人 员 ” 至 回复 帖 层级 的 “疫情 形势 ”至 楼 
中 楼 帖 层级 的 “管控 环节 与 措施 ”、 主 帖 层 级 的 “疫情 
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形 更 ”至 回复 帖 层级 的 “症状 "至 同样 是 回复 帖 层级 的 
“光疗 ”、 主 帖 层级 的 “病例 数据 "至 回复 帖 层级 的 “ 病 
例 胜 据 ” 至 楼 中 楼 帖 层级 的 “感染 及 症状 ”。 

包 除 此 以 外 ,本 文 将 会 话 视角 下 主题 修 间 的 演化 路 
径 归纳 为 6 种 ,如 表 4 所 示 。 结 合 关键 演化 路 径 分 析 
的 结果 ,本文 认 为 资源 结构 也 是 影响 主题 禾 间 演化 的 
关键 因素 。 过 去 关于 主题 演化 的 研究 中 ,学 者 们 在 采 
集 数据 时 只 关注 直接 发 布 的 内 容 , 即 本 文中 涉及 的 “ 主 
帖 " 内 容 , 或 者 将 3 个 层级 的 内 容 视 为 一 个 帖子 的 全 部 
内 容 进 行 后 续 分 析 。 但 根据 本 文 从 主题 或 主题 焦 层 面 
的 演化 分 析 结 果 来 说 ,处 于 回复 帖 层级 的 帖子 内 容 度 
中 心性 普遍 较 高 ,成 为 了 影响 主题 演化 方向 的 重要 角 
色 。 这 也 为 相关 部 门 提供 了 一 个 全 新 的 与 情 控制 方 
向 , 即 关注 帖子 中 的 评论 内 容 , 而 绝 不 仅 关注 那些 影响 
力 较 高 的 用 户 发 言 。 


6 结语 


本 文 在 主题 演化 相关 的 研究 基础 上 融入 了 会 话 分 
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图 6 3 个 层级 核心 主题 簇 演 化 关系 图 谱 


表 4 主题 篮 间 演化 关系 及 具体 实例 


演化 模式 演化 路 径 具体 实例 (主题 禾 -主题 徐 ) 
层级 内 演化 主 帖 - 主 帖 病例 数据 - 相关 人 员 
可 复 帖 - 回复 帖 病例 数据 - 疫情 形势 

楼 中 楼 帖 - 楼 中 楼 帖 感染 及 症状 -管控 环节 与 措施 
层级 间 演 化 主 帖 -回复 帖 疫情 形势 -症状 

主 帖 -楼 中 楼 帖 相关 人 员 -相关 人 员 与 机 构 


回复 帖 -楼 中 楼 帖 


析 的 视角 ,提出 主题 演化 持续 性 的 判定 应 从 主题 强度 、 
网 络 结构 和 主题 内 容 关联 度 3 个 方面 来 进行 。 在 演化 
分 析 中 ,一 方面 兼顾 主题 强度 和 时 序 性 ,通过 描绘 并 对 
比 不 同 层 级 帖子 主题 簇 热 度 和 交互 性 变化 ,提出 影响 
主题 强度 和 交互 性 演化 的 三 大 因素 ,分 别 为 标志 性 
事件 的 出 现 、 网 络 结构 和 事件 特性 。 田 一 方面 基于 
本 文 提出 的 关联 规则 ,利用 特征 词 对 的 支持 度 和 可 
信和 度 来 对 主题 艇 间 的 关系 进行 进一步 判断 ,同时 应 
用 社会 网 络 分 析 方 法 抓 取 核心 主题 篮 ,挖掘 与 其 相 
关 的 关键 演化 路 径 ,为 相关 部 门 僵 情 玻 导 提 供 参 考 
性 方向 。 
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Research on Topic evolution of Public Emergencies from the Perspective of 
Conversation Analysis: A Case Study of COVID-19 
Zhai Shanshan Wang Zuorong Chen Huan Pan Ganghui 
School of Information Management, Central China Normal University, Wuhan 430079 

Absiract: | Purpose/Significance | The introduction of conversation analysis theory provides a new research 

perspective for the study of topic evolution and refines the granularity of topic evolution analysis. At the same time, a 

more perfect theme evolution analysis approach is applied to public emergencies, which is conducive to improving the 

efficiency of public opinion guidance of regulatory departments. | Method/ Process| Based on the topic identification 

methods and topic evolution judgment criteria in existing studies, this paper combined conversation analysis and topic 

analysis to introduce conversation contents and conversation organization structure into the process of topic evolution 

analysis, and used user-generated content in COVID-19 as data source for empirical analysis. Through the topic evo- 

lution analysis based on temporal sequence and discussion hot, the evolution laws of contents at different levels were 

dentified from the topic intensity level. The association rule calculation idea of knowledge discovery was introduced 

qihe topic content analysis level, to mine the reference relationship between corpus contents ，and the key evolution 

(Fath was determined by combining the social network analysis method. | Result/Conclusion | The results show that 

re are certain differences in the topic contents at different levels in the network structure and it has an important 

Gnfluence on the evolution trend of the topic, effective supervision of the contents at important levels will play a posi- 
‘tive role in guiding the trend of public opinion. 

©O Keywords: conversational analysis public emergency topic identification topic evolution association rules 
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刘 国 钧 先生 相关 资料 征集 启事 


= 刘 国 钧 先生 (1899 -1980) , 字 衡 如 ,其 一 生 阅历 丰富 ,交游 广泛 ,治学 勤奋 ,取得 了 丰硕 的 学 术 成 果 , 是 中 国 近 现代 图 书馆 
学 的 费 基 人 之 一 和 著名 学 者 。 为 编纂 《 刘 国 钓 全 集 》, 全 面 反映 刘 国 钧 先生 为 中 国 图 书馆 事业 做 出 的 杰出 贡献 ,《 刘 国 钧 全 集 》 


编纂 课题 组 现 面向 社会 各 界 公 开征 集 刘 国 钧 先生 相关 资料 及 线索 。 
一 、 征 集 范围 及 内 容 四 、 资 料 利 用 
包括 且 不 限于 以 下 类 型 : 课题 组 对 所 征集 的 资料 实物 等 将 妥善 保存 、 合 理 利 用 ; 
1 .手稿 .书信 及 题 签 等 相关 手迹 ; 对 提供 的 线索 ,课题 组 将 派 人 专门 联系 、 整 理 。 征 集资 料 收 
2 .记录 刘 国 钧 先生 工作 .生活 和 活动 的 照片 音像 资料 ; 人 和信 《 刘 国 钧 全 集 》 者 ,将 在 书 中 注 明 资料 来 源 ,以 示 谢 忧 。 
3 各 个 时 期 的 著述 .出 版 物 ; 五 .联系 方式 
4 印章 ; 联系 人 : 张 久 珍 
5 其 他 与 刘 国 钧 先生 相关 的 史料 (例如 藏书 等 ) 。 通信 地 址 :北京 海淀 区 颐和园 路 5 号 北京 大 学 信息 管理 
6 其 他 与 刘 国 钧 先生 相关 的 一 切 资料 线索 。 系 ( 方 李 邦 琴 楼 406 室 ) 
二 、 征 集 载体 邮 ” 编 :100871 
1 各 类 文字 记录 电子 文件 .照片 声 像 字画 和 实物 等 。 电邮 :jiu@ pku. edu. cn 
2 如 不 能 提供 原件 ,烦请 以 电子 邮件 形式 寄 送 扫描 件 电  ” 话 :010 -62766306 

(PDF 或 JPEG 图 片 格式 ,内 容 清晰 ) 
三 、 征 集 时 间 《 刘 国 钩 全集》 编纂 项 目 管理 组 
长 期 征集 ,时 间 不 限 , 随 时 联系 。 2022 年 4 月 7 日 
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